基于深度生成模型的从头药物设计方法发展

智药邦 2022-12-15

The following article is from 分子设计 Author 查锦寅 & 张健

如何根据蛋白质口袋的结构，直接设计出能与之结合的分子，是计算机辅助药物设计领域的一大难题。当前，主要的解决策略是“片段生长”，即先将一个小的片段对接入口袋，然后不断在小的片段上嫁接新的片段，评估与口袋结合的能力，从而逐步形成一个完整的药物分子。最近，匹兹堡大学的研究人员针对这一问题提出了一种新的策略。他们使用条件变分自编码器（Conditional variational autoencoder, CVAE），一步生成能结合目标口袋的药物分子，为人工智能在药物研发中从头设计分子的应用提供了新的方向。

要了解CVAE，首先要简单介绍变分自编码器（Variational autoencoder, VAE）在原创药物设计上的应用，如上图。例如，有目前一批能靶向GPCR的药物，VAE可以将它们（高维数据）编码到低维空间上，并联结成一块“特征空间”，我们也可以称之为“药物空间”。“药物空间”一定程度上代表的靶向GPCR药物的全集。因此，如果我们在这块区域上另取一点，并解码回高维的化学分子，那么这个分子就是潜在的靶向GPCR的新药物。然而，VAE有局限性：如果使用所有可成药分子去构建“药物空间”，那么重新取样得到的药物仅是一个新的可成药分子，没有靶向选择性；如果用靶向某一口袋的药物去构建“药物空间”，又需要大量已知的，靶向该位点的药物，无法用于First-in-class药物的开发。

为此，研究者使用CVAE来解决这一问题。CVAE相比VAE，可以给药物分子贴上配体的“标签”后再生成“药物空间”。后续采样时，可以根据标签（口袋）来对“药物空间”的特定部分采样，从而能够获得靶向该口袋的新药物。这一过程可以简单认为是将药物分子和配体分别进行编码（降维），如上图。然后，在待研究口袋所处的区域（即绿色“药物空间”中的蓝色区域）进行采样。在本工作中，研究者没有使用药物分子生成“药物空间”，而是将药物和口袋的复合物作为整体去生成“特征空间”。这么做，一方面可以强调药物与口袋相互作用以及作用时的构象；另一方面，研究者额外采取了异于图二上的另一种采样方法，即对口袋以及药物-口袋作用模式进行双重限制（即红色区域）。前者被称作先验采样（Posterior），而后者被称作后验采样（Prior）。在后续内容中，他们对这两种采样方式进行了差异比较。至此，研究者构建了一个新的基于口袋结构的药物分子生产模型。该CVAE使用CrossDocked2020进行训练，并选取其中十个代表性结构进行后续测试。

研究者对该模型生成分子的质量进行了详细的考察，主要分为三部分：

（1）新分子的合理性。一方面，新产生的分子需要有合理的形态与连接方式（上图的Valid），比如不能断成两部分、原子的配位数要合理、芳香结构要保持平面等。研究者发现模型生成的90%以上的新分子均满足这些要求，且后验采样准确度更高。另一方面，生成分子的构象要合理（上图的UFF RMSD）。为此，研究者将生成的分子进行几何优化，发现优化后的结构相比原结构的RMSD普遍在2 Å以下，同样也是后验采样的RMSD更低。这些结果保证了模型生成分子的合理性。

（2）新分子的新颖性。所有生成的分子在训练集中均不存在（上图的Novel）。但与训练集中原配体指纹相似性（上图的Similarity）上，先验采样的相似度低了许多。

（3）成药性。生成的新分子分子量基本都在400以下。在Vina对接分数以及CNN亲和力上表现都不算太出色。不过，在两种采样方式中，均有约15%的新分子，在亲和力上优于训练集中的原配体分子。

进一步，研究者对该算法进行了采样范围的研究。采样范围指的是先验采样中蓝色区域的宽度或者后验采样中红色区域的宽度。作者对这两种采样方式下，采样范围对结果的影响分别进行了讨论。

（1）后验采样。如上图（上半部分），随着采样范围变大，分子与训练集中原配体的相似度逐渐减小。其他指标的中值几乎不变，但范围逐渐变大。这与逐渐变大的采样范围匹配。

（2）先验采样，如上图（下半部分），随着采样范围变大，分子与训练集中原配体的相似度的中值无显著变化；分子量和CNN亲和力逐渐变大；所有指标的范围逐渐变大。先验采样不会限制配体与口袋的相互作用类型，可能是造成这一无序变化的原因。

除此之外，研究者对该算法进行了口袋中残基突变对结果影响的研究。他们以莽草酸激酶的活性口袋为例，探讨了口袋中残基突变对算法结果的影响。如图六所示（上图为展示结果、下图为量化结果）研究表明，只有当多位点突变时，才会使得采样结果显现出巨大的改变。而对单点突变的情况，只有34、49、132与136号氨基酸突变对结果形成的一定的影响。同时，先前被报道与该口袋结合配体关键的58、80与81号氨基酸突变时，并未对生成的分子产生比较明显的影响。

最后，研究者依旧以莽草酸激酶的几个配体为例，讨论了它们在特征空间上的可插值性。结果如上图所示。可见，在不同配体间插值，所产生的新配体结构会从一个配体逐渐向另一个配体转变。这表明CVAE训练得到的特征空间有较好的连续性，也进一步论证了该生成模型的可靠性。

本文发展了一种基于条件变分自编码器的新算法，能根据口袋结构与特征一步生成可能的新型先导化合物。他们之后详细讨论了生成的新分子的各种性质，以及采样条件、范围、位点突变等对结果的影响。最后通过插值实验验证了模型的可靠性。

“分子设计”简评

从算法上说，本研究可能是第一个利用CVAE来一步实现靶向药物设计的算法，设计思路有不错的新颖性；结果上也有一定突破性。本研究也通过大量的统计工作对他们的模型进行了详细的论证。不过，本研究似乎将太多的精力放于模型之上而忽视了模型的“适用性”。笔者认为，研究者完全可以在本文的后半部分，以一个未报道结合药物的口袋入手，利用发展的算法设计一个可能的药物分子，并加以计算与实验的验证。（如参考文献2的做法）。毕竟“All models are wrong.”，但只要“useful”就会是有用的模型。此外，就研究给出的分子结构而言，似乎CVAE产生的新分子很难跳出训练集中的骨架。这可能表面相比于相对成熟的片段生长策略，利用CVAE一步产生新的靶向某一口袋的药物分子目前还处于概念化阶段。

参考文献

1. Ragoza M T, Masuda T, Koes D R. Generating 3D Molecules Conditional on Receptor Binding Sites with Deep Generative Models. Chemical Science, 2022.

2. Li Y, Pei J, Lai L. Structure-based de novo drug design using 3D deep generative models. Chemical Science, 2021, 12(41): 13664-13675.

3. Böhm H J. The computer program LUDI: a new method for the de novo design of enzyme inhibitors. Journal of Computer-Aided Molecular Design, 1992, 6(1): 61-78.

4. Lim J, Ryu S, Kim J W, et al. Molecular generative model based on conditional variational autoencoder for de novo molecular design. Journal of Cheminformatics, 2018, 10(1): 1-9

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向。

- 历史文章推荐 -

【AI药物设计】

●CAS博客｜首批进入临床试验的AI设计的候选药物：结构新颖性评估

●JMC｜用于从头药物设计的生成模型

●用机器学习预测药物在靶点上的停留时间

●Drug Discov Today｜人工智能增强的药物设计和开发：迈向计算型精准医学

●Drug Discov Today｜用于从头药物设计的图神经网络GNN

●Nat Commun｜AI结合基因表达特征，从头生成类苗头化合物

●BioRxiv｜基于表型和化学结构预测化合物活性